查看原文
其他

Hello GPT-4o

renee创业狗 Renee 创业随笔
2024-10-10

更新重点

昨天OpenAI正式发布GPT-4o,能够实时处理音频、视觉和文本信息。

GPT-4o(“o”代表“全能”omni)是朝向更自然的人机交互迈出的一步——它能够接收文本、音频和图像的任意组合,并生成文本、音频和图像的任意组合输出。它能在短至232毫秒内响应音频输入,平均响应时间为320毫秒,与人类在对话中的响应时间相当。

在英文和编程文本处理上,GPT-4o达到了与GPT-4 Turbo相同的性能,同时在非英语语言的文本处理上有显著提升。GPT-4o在视觉和音频理解方面相比现有模型有显著优势。GPT-4o训练了一个全新的模型,该模型在文本、视觉和音频方面进行端到端处理,这意味着所有输入和输出都由同一个神经网络处理。

成本

开发者可以通过 API 访问 GPT-4o,作为文本和视觉模型使用。相比 GPT-4 Turbo,GPT-4o 的速度提高了两倍,价格减半,且请求频率限制提高了五倍。OpenAI计划在未来几周内,向一小部分受信任的白名单开发者通过 API 推出 GPT-4o 的新音频和视频功能支持。

同时更新了新分词器,使得多种语言的压缩效果得到显著体现。例如,中文的分词效率显著提升,令牌数量减少了1.4倍。你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!这句话的令牌数量从之前的34个减少到了24个。

先看视频

再看效果






Mac 版本

ChatGPT 最近也推出了 Mac 版本,看来 GPT 与苹果的合作越来越密切了。我之前在一个播客中听到,苹果营销部门的许多人都加入了 OpenAI。(参考播客:https://castbox.fm/vd/660257666)

在 Mac 电脑上,通过按 ⌥ Option + Space 就能直接启用 ChatGPT,操作体验非常流畅。

下面就是用Mac版本的GPT-4o给我的关于GPT-4o的更新。

评测

GPT-4o 在文本处理、推理和编程智能方面达到了 GPT-4 Turbo 级别的表现,同时在多语言处理、音频和视觉能力上设立了新的高标准。

  • 改进的推理能力 - GPT-4o 在 0-shot COT MMLU(通用知识问答)上创下了 88.7% 的新高分。所有这些评估都采用了新的简单评估方法。


  • 音频语音识别性能 - GPT-4o 在所有语言上显著提升了语音识别性能,特别是在资源较少的语言上,相比 Whisper-v3 有显著改进。


  • 音频翻译性能 - GPT-4o 在语音翻译方面设立了新的行业标准,并在 MLS 基准测试中超越了 Whisper-v3。


  • M3Exam - M3Exam 基准测试是一项多语言和视觉评估,包括来自不同国家标准化测试的多项选择题,有时包括图表和图解。GPT-4o 在所有语言的这一基准测试中表现优于 GPT-4。(对于斯瓦希里语和爪哇语,没有提供视觉结果,因为这些语言的视觉题目少于5题。)


  • 视觉理解评估 - GPT-4o 在视觉感知基准测试中达到了行业领先水平。所有视觉评估均为 0-shot,包括 MMMU、MathVista 和 ChartQA。


其他免费工具

在这次发布会上,除了 GPT-4o 外,还为 ChatGPT 的免费用户提供了更多工具:

  • 体验 GPT-4 级别的智能
  • 从模型和网络上获取响应:)
  • 分析数据并创建图表:)
  • 讨论你拍摄的照片
  • 上传文件以获得总结、写作或分析的帮助(新窗口中打开)
  • 探索并使用 GPTs 及 GPT 商店
  • 利用“记忆”功能构建更有帮助的体验
修改于
继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存